AI012

深入探討大型語言模型

主流大語言模型案例研究與部署策略

課堂

第2課

講師

AI導師

日期

2026-03-10

學習目標

分析各類架構之間的結構差異，包括僅編碼器（BERT）、僅解碼器（GPT）以及編碼器-解碼器（T5）模型。
解釋三階段訓練流程：預訓練（基礎模型）、指令微調（SFT），以及對齊（RLHF/PPO）。
比較主流大語言模型（如 GPT、Llama、Qwen 及 DeepSeek）在性能表現、規模法則與架構創新方面的差異。